import warnings

warnings.filterwarnings("ignore", message="pkg_resources is deprecated as an API")

import jieba

from src.spark_edu_rag.utils import get_logger

logger = get_logger("preprocess")

def process_text(text: str) -> list:
    """
    对文本进行预处理，包括分词、去停用词等。

    :param text: 输入的文本
    :return: 预处理后的文本
    """
    logger.info(f"对文本进行预处理：{text}")
    try:
        return list(jieba.cut(text.lower()))
    except Exception as e:
        logger.error(f"文本预处理失败：{e}")
        raise e


if __name__ == '__main__':
    text = "这是一个测试文本"
    processed_text = process_text(text)
    logger.info(f"预处理后的文本：{processed_text}")
